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У В Тор!с$ ’ Распределенная очередь сообщений 


Это масштабируемый сервис . Заменил решение на основе Ка!Ка 
для передачи упорядоченных 


. Параметры основного кластера в Яндексе: 
потоков данных 


Используют -1000 команд 
—10 Гбайт/с на запись 
350 К партиций в -10 К топиках 


° Доступен с АР! Уапаех Ваа Згеатз 


Сообщество УОВ в Таедгат ° Вышел в опенсорс в составе УОВ 
П(рз:/Л.те/уаб ги | 


м и 
и 


@УОВ_ВО 


Содержание 


1. Мотивация 
2. Модель очереди на основе лога 
3. Архитектура решения 


4. Использование УОВ Торс$ 


Мотивация Задачи для УОВ Торсз 
. Гребования к решению 


° Зачем строить своё решение 


Задачи для УОВ Торсз$ 


Поставка данных в ата \!агепои$е 


Поставка больших объемов 
логов в системы аналитики 


Азупс теззадто 

Классический асинхронный 
обмен сообщениями 
между сервисами 
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1 


З\театта р!аНогт 


Аналитика в реальном 
времени 


шптазкгисиге сотропег{ 


Инфраструктурный 
компонент 


Пример: Спапде Ваа Сариге 
У0ОВ-таблиц > 


Требуемые свойства 


| 2 3 4 


Надежность Масштабируемость Доступность Производительность 


Требуемые свойства 


| 2 3 А 


Надежность Масштабируемость Доступность Производительность 


Сообщения не теряются 


Настраиваемый Н!ЕО-порядок 


Поддержка ехасйу-опсе- 
семантики доставки при записи 


Требуемые свойства 


| 


Надежность 
Сообщения не теряются 


Настраиваемый Н!ЕО-порядок 


Поддержка ехасйу-опсе- 
семантики доставки при записи 


2 3 


Масштабируемость Доступность 


По Игоцапрщ на запись 
По числу партиций 


По числу изолированных 
пользователей 


Издержки на эксплуатацию — О(1) 


д 


Производительность 


Требуемые свойства 


| 


Надежность 
Сообщения не теряются 


Настраиваемый Н!ЕО-порядок 


Поддержка ехасйу-опсе- 
семантики доставки при записи 
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Масштабируемость 


По Пгоцапрщ на запись 
По числу партиций 


По числу изолированных 
пользователей 


Издержки на эксплуатацию — О(1) 


3 4 


Доступность Производительность 


Отказы дисков, хостов — 
ежедневно, ДЦ — авария 
или регулярные учения 


Переживать автоматически 
и без деградации по |аепсу 


Возможная геораспределенность 


Требуемые свойства 


| 


Надежность 
Сообщения не теряются 


Настраиваемый Н!ЕО-порядок 


Поддержка ехасйу-опсе- 
семантики доставки при записи 
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Масштабируемость 


По Пгоцапрщ на запись 
По числу партиций 


По числу изолированных 
пользователей 


Издержки на эксплуатацию — О(1) 
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Доступность 


Отказы дисков, хостов — 
ежедневно, ДЦ — авария 
или регулярные учения 


Переживать автоматически 
и без деградации по |аепсу 


Возможная геораспределенность 


д 


Производительность 


ТАгочдпру{ — десятки Гбайт/с 


[ аепсу < 1 сот отправки 
писателем до получения 
читателем 


Зачем строить своё решение 


Решение Араспе Ка#а® 
Почему не подошло 


ГооКеерег 
Маш{атаб!Ку 


Недостаточная изоляция клиентов 


Свое решение 
Бонусы 


Оптимизации под свои задачи 
Переиспользование компонентов 


Развитие в нужных направлениях 


Модель очереди  Сущности УОВ Торс$ 
На основе лоОГа ° Протоколы передачи сообщений 


Отказы и ехасйу-опсе семантика 


Сущности УОВ Тор!с$ 


‚ Пользовательские данные сгруппированы 
по топикам 


Топик разделен на партиции 


. Одна партиция — это распределенный 
лог сообщений 


. Сообщение = тело + метаданные 


. Номер сообщения в партиции — офсет 


Топик А 


Партиция 0 


Партиция 1 


Партиция 2 


Офсеты возрастают 


[о 
2 


1 
РЕ. 
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Запись 


. Сессия записи — двусторонний потоковый ВРС 
. Пишем в одну партицию одного топика 
’ Меззаде огоир 14 — ключ партиционирования 


’ Сервер возвращает подтверждения записи 


Клиент Сервер 


— ШК геа — 


——— |ПКГ5р — 


—— Оаща (1) — 


—— Бака (2) — > 


—_— Аск(1) — 


—— Оака (3) ———_—_> 


—— Аск(2) — 


>— АсК(3) — 


Запись. Дедупликация 


Клиент Сервер 


— ШК тгеа — 


——— Пр — 


. При сбоях возможна переотправка сообщений 
, —— Оажа (1) ——- 
° Добавим к сессии ргодисег 14а, к сообщениям -— зеа_ по 


—— Оаща (2) ——> 


. По паре (ргодисег 14, зеа_по) узнаем дубли 
о Ак(1) — 
— Баца (3) — 


«Ф— Аск(2) — 


«о Аск(3) — 


Запись. Дедупликация 


Ргодисег Х 
зеа_по 1 


\Мгке (Хх, 1) 


Ра\\оп 


Запись. Дедупликация 


Ргодисег Х 
зеа_ по 2 


Ра\\оп 


Запись. Дедупликация 


Ргодисег Х 
зеа_ по 2 


Ме (Х, 2) 


Ра\\оп 


20 


Запись. Дедупликация 


Ра\\оп 
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Запись. Дедупликация 


Ргодисег Х 
зеа_ по 2 


Ме (Х, 2) 


Ра\\оп 
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Запись. Дедупликация 


Ргодисег Х 
зеа_по 3 


Агеаау млЩеп 


Ра\\оп 
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Чтение 


Клиент Сервер 


— Ш —— 


. Сессия чтения — двусторонний потоковый ВРС 


м Ир — 


. Клиент-читатель задаёт сопзитег 19 


< Чамр1геа — 


С различными сопзитег 1а читаем независимо 


° Дедупликация возможна на стороне клиента по паре —_ Зайр1изр 
«партиция — офсет» 


—— Кеаа теа ————^—+ 
’ Клиент-серверная балансировка 
«-———_______ Кеаагзр (1) — 


-————______ Кеаагзр (2) — 


— Сотитй ое (1-2) ————+ 


Чтение. Балансировка 


Параллельное чтение топика — несколько 
сессий с одним сопзитег 14 


е Сервер распределяет партиции динамически 


Чтение. Балансировка 


„=== ----- 


Партиция 0 
СН 
| | 
| 


Партиция 1 


Сессия 1 


3 пыш пыш вши пшш ви выш вы вши вши вши вши пыш вши ши ши ши вши ши вши пшш вши вши вши вши ши вши вши паши 55% 
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Чтение. Балансировка 


Топик 
| РО О Я О И ООО ИО В О ВО А В В ИЯ ОО Оо И, 
Партиция 0 | 
ы Сессия 1 
| 
Партиция 1 
Сессия 2 


3 пыш пыш вши пшш ви выш вы вши вши вши вши пыш вши ши ши ши вши ши вши пшш вши вши вши вши ши вши вши паши 55% 


Ее 


Чтение. Балансировка 


Топик 
| РО О Я О И ООО ИО В О ВО А В В ИЯ ОО Оо И, 
Партиция 0 | 
ы Сессия 1 
| 
Партиция 1 
Сессия 2 


3 пыш пыш пшш пы выш выш вы вы вши вши вши вши вши ши ши вши вши ши ши пшш вши вши вши вши ши вши вши паши 05% 
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Чтение. Балансировка 


„=== --->- 


Партиция 0 


Партиция 1 


3 пыш пыш пшш пы выш выш вы вы вши вши вши вши вши ши ши вши вши ши ши пшш вши вши вши вши ши вши вши паши 05% 


СЕЕЕГГ 


Сессия 2 
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Чтение. Балансировка 


„=== --->- 


Партиция 0 


| | 

| | 

| | 

| | 

| 
Партиция 1 

| | 
В 
| 


3 пыш пыш пшш пы выш выш вы вы вши вши вши вши вши ши ши вши вши ши ши пшш вши вши вши вши ши вши вши паши 05% 


Сессия 2 
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Архитектура Архитектура платформы \ОВ 
решения о Рац\оп {а е{ 


° Компоненты узла 


Воск О 


Платформа УОВ лу 


Очегу Ргосе$$ог 


Торс$ МВ$ 
О$ирщеа Тгапзасйоп$ Торе Пе\лсе 
Ргоху Оиуег 
° Таблетка — Нерисаеа $<а{е тасйпте а И 
ы: Табе" Табе" 
‚ Уровень хранилища отделен — 
Ра\\оп ВоскОе\се 
‚ Есть разные специализированные Таые{ ТаЫе* 
таблетки, код наследуется Раказрага ТаЫе! 
. Автоматическая перебалансировка 
таблеток по нодам бузтет {а е!з 
° Акторная система как среда сспетезвага оспедщег 0$ Сопиго!ег 


коммуникации 


Ю$М Р!аМогт 


Очирцщеа $огаде 


Ра\щоп Та Е 


УОВ Та е{ предоставляет: Строим поверх: 
° Интерфейс базы данных . Кеу-\аше АРГ: КУ ТаЧе 


. Локальные транзакции .‹ Аррепа-оту райоп |049 


Компоненты 
сервера 


Торс ВРС Ргоху 
РаийШоп Табе 
Озшощеа 5Зогаде 
Воб Саспе 
Ра\Нюп От!$соуегу 


Веаа Ва|апсег Та ет 


Ра\Цоп Та. Запись 


Моае 1 Мое 2 


Торс ВРС Рай оп 
Ргоху Таые! 


[2 | 


Ра\{юоп 
О! соуегу ВоБ Саспе 


МоЧе$ 3, 4, 5 


Оибщея 
5огаде 


Баланси ровка Торюс Веаа Ва!апсег — 
при чтении специальная таблетка 


› В ней регистрируются все сессии чтения 
в данный топик 


’ Выдает и отбирает партиции у сессий 


Инсталляция УОВ Торс$ в Яндексе 


Суммарный трафик записи и чтения за последнюю неделю 


2006 = В кластере более 1000 хостов 
180С ‚ Более 1000 аккаунтов 

666 пользователей 

1406 ’ 350 К партиций в -10 К 

ме топиках 

100С . Запись ДО 10 Гбайт/с 


. Чтение до 150 Гбайт/с 


18.11.22 19.11.22 20.11.22 21.11.22 22.11.22 р: 1 УХ. 24.11.22 


БОК и клиенты 


С++ ОК 
о ОК 
Работа через УШОВ СИ 


Дополнительно: АР! А\/\$ 
Кпиез$ Ваазгеатз 


Итоги 


Реализация 
распространенного дизайна 
очередей на платформе 
УОВ 


2 


7’ лет в проде Яндекса как 
основной фреймворк 
распространения данных 


3 


Ореп зоигсе: 
экспериментируйте, 
внедряйте, развивайте 


Спасибо! 


| 
| Ильдар Хисамбеев, 


\ , разработчик систем 
| поставки данных, | 
СЯН, екс 
Гиват КЫзатееу 
|ртенеь- ги | 


нь Ннгоач" ны ‚ ИАлеке 


‚ 2022 
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Обратная связь 


